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Влияние О5М-сжатия на идентификационные 
акустические признаки, характеризующие 
речевой поток в целом 


Статья посвящена исследованию влияния алгоритма сжатия ОМ 6.10, используемого современной 
сотовой связью, на характеристики речевого сигнала. В работе описаны интегральные признаки речевого 
сигнала, используемые в современных системах идентификации диктора, выполнено численное 
исследование устойчивости значений этих признаков к сжатию с потерями. 


Введение 


В последнее время очень активно развиваются разнообразные технические сис- 
темы определения индивидуальности говорящего по речевым характеристикам. По- 
требность в разработке таких систем диктуется наличием широкого круга различных 
приложений, где требуется подтвердить или опознать определенную личность. Осо- 
бенно это актуально при разработке систем криминалистической экспертизы зву- 
козаписей. 

Известно множество цифровых методов выделения идентификационных при- 
знаков из речевого сигнала [1-4]. Однако из-за низкого качества исследуемых фоно- 
грамм при проведении фоноскопических экспертиз возможно использование лишь тех 
акустических признаков, которые являются инвариантными к влиянию искажений 
фонограмм. К ним относятся признаки, описывающие статистические характеристики 
амплитудно-частотной спектральной плотности речевого сигнала и основного тона со- 
поставимых по контексту фрагментов речи. Эти признаки получили название интег- 
ральных, поскольку, в отличие от признаков «тонкой спектральной структуры» сопо- 
ставимых звуков, измеренных синхронно с моментом возбуждения голосовых связок, 
они вычисляются на участках речевого сигнала, содержащих сопоставимые слова и 
фразы, длительностью около 10 секунд. Интегральные признаки характеризуют рече- 
вой поток в целом и определяют групповую принадлежность говорящего. 

При вычислении спектральных признаков речевой сигнал подвергается филь- 
трации «гребенкой» полосовых цифровых фильтров и последующему спектральному 
анализу. 

Все известные на сегодняшний день аппаратно-программные комплексы фоно- 
скопических экспертиз, представленные на рынке СНГ, при формировании акусти- 
ческих идентификационных признаков используют методику системы «Диалект», 
разработанную по заказу ФСБ России в 1995 году. В этой системе для получения 
интегральных признаков используется гребенка из 21 цифрового фильтра в диапа- 
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зоне частот от 0 до 3662 Гц, ширина полосы пропускания каждого из фильтров 
составляет 174 Гц [4]. Таким образом, предложенная разработчиками «Диалекта» 
методика не дает возможности выбирать количество полосовых фильтров и настра- 
ивать границы их полос пропускания. 

В криминалистической практике зачастую возникает ситуация, когда образцы 
речи, по которым формируют эталоны, и сигнал, подлежащий идентификации, запи- 
саны в разных условиях. Последний, в большинстве случаев, записан в условиях 
использования телефонной, преимущественно сотовой, связи, в которой активно ис- 
пользуется цифровой формат, получивший название СМ [5], [6]. Звук этого фор- 
мата получается кодированием специальным алгоритмом сжатия, в результате чего 
происходит потеря полезного сигнала (объем данных о речевом сигнале сокращен 
примерно в 5 - 10 раз), которая влияет на распознавание говорящего. Таким образом, 
потребность в проверке устойчивости признаков идентификации дикторов по их 
речи возрастает с каждым днем, делая эту задачу актуальной. 

Цель работы — исследование влияния алгоритма сжатия ОМ на идентифи- 
кационные признаки, характеризующие поток речи в целом. Для достижения цели 
поставлены и решены следующие задачи: 

— сделать обзор методов формирования интегральных акустических призна- 
ков, используемых современными системами идентификации говорящего; 

— программно реализовать описанные методы с учетом психоакустических прин- 
ципов восприятия и провести численное исследование влияния алгоритма О$М-сжа- 
тия на значения полученных признаков. 


Обзор современных методов вычисления интегральных 
признаков для автоматической идентификации личности 
по голосу 


В качестве интегральных спектральных признаков используются следующие 
наборы идентификационных признаков: 

— нормированные значения энергетического спектра; 

— нормированные средние значения энергетического спектра; 

— относительное время пребывания сигнала в полосах энергетического спектра; 

— нормированное время пребывания сигнала в полосах энергетического спектра; 

— медианные значения энергетического спектра речи в полосах; 

— относительная мощность спектра речи в полосах; 

— величины вариации огибающих энергетического спектра речи; 

— нормированные величины вариации огибающих энергетического спектра речи; 

— значения коэффициентов кросскорреляции спектральных огибающих между 
полосами энергетического спектра; 

— значения компонент гистограммы распределения частоты основного тона. 

Для получения наборов интегральных признаков сигнал разбивается на окна 
постоянной длины. Для анализа речевого сигнала длина окна выбирается с учетом 
периода основного тона (ОТ) и составляет около 20 мс, поскольку в нормальной речи 
параметры возбуждения не изменяются быстро. На каждом из окон вычисляется 
кратковременный энергетический спектр с помощью фильтрации гребенкой цифро- 
вых фильтров. 

В качестве полос пропускания в рамках данной работы была использована 
барк-шкала [7], связанная с критическими полосами слуха, а также темперированная 
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музыкальная шкала [8]. Такой выбор обусловлен психоакустическими принципами 
восприятия [7]. В табл. 1 приведены значения граничных частот 25 критических 
диапазонов для барк-шкалы, по формуле (1) получают значения центральных частот 
полос по темперированной музыкальной шкале, которые зависят от номера ноты № 
(самой низкой ноте «Ля» с целым значением частоты 55Гц соответствует номер 
№ = 33). Представление локальных значений мощности в пределах психоакустических 
шкал позволяет моделировать процесс обработки речевого сигнала человеческим ухом. 


о а Вы (1) 
12 12 
Таблица 1 — Центральные частоты и границы полос по барк-шкале 
№ Границы № Границы № Границы 
полосы | полос, Гц | полосы | полос, Гц полосы полос, Гц 

1 0- 100 9 920 -— 1080 15 4400 — 5300 
2 100—200 10 1080 — 1270 16 5300 — 6400 
3 200-300 И 1270 — 1480 И 6400 — 7700 
4 300 — 400 12 1480 — 1720 18 7700 — 9500 
5 400 — 510 13 1720 — 2000 13 9500 — 12000 
6 510-630 18 3700 — 4400 24 12000 — 15500 
7 630 — 770 13 1720 — 2000 25 15500 -... 
8 770 — 920 14 2000 — 2320 


После фильтрации гребенкой из М цифровых фильтров (в зависимости от 
использованной шкалы) речевой сигнал может быть представлен в виде двумерного 
массива значений кратковременных энергетических спектров (спектральных срезов), 
полученных на каждом окне анализа: 


о а1МУ 
ль (2) 
где х(1/) — значение энергии сигнала на выходе 1/-го полосового фильтра в /-м 
спектральном срезе; /— общее количество окон на анализируемом отрезке сигнала. 
ВАА 
Введем операцию нормировки массива {а( р по 2А+1 точкам: 


(ак +, Кг =Т, 
а(а(2.к)= что (3) 
>.) 


а(а(М- к), к)Е= М-К+ЬМ 
Признаки первой группы — нормированные значения энергетического спектра: 
х(@)= Е (4) 
>20 


11 


где х(7) — среднее по строке массива: 


х(!)= тж, Л. (5) 
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Признаки второй группы — нормированные согласно (3) значения энергети- 
ческого спектра (4): 
х,()=а(х(03). (6) 
Нормировка значений признаков (4) вводится для снижения их зависимости от 
линейных (частотных) искажений речевого сигнала при прохождении его по тракту 
звукозаписи. 
В третьей группе признаков — относительное время пребывания сигнала в 
полосах энергетического спектра, значение каждого 1-го признака вычисляется по 


формуле (7): 


(9-1. (7) 


где Д .Лр) — количество спектральных срезов, при которых энергия в 1-й полосе пре- 


вышает среднее значение (5). 
В четвертой группе признаков — нормированное время пребывания сигнала в 
полосах энергетического спектра, полученное согласно (8): 


‚(0-9 (8) 


11 

Пятую группу составляют признаки нормированных медианных значений энер- 
гетического спектра, вычисляемые по формуле (9): 
пы", ©) 
Ут 
1=1 
где т(7) — медианное значение энергетического спектра для полосы 1-го фильтра. 

Признаки шестой группы — нормированные значения мощности спектра в 
полосах, которые вычисляются согласно (10): 


Р. (= а(Р(2)3), Р(г) = т/д. (10) 

Нормировка мощности спектра вводится по той же причине, что и нормировка 

средних значений энергетического спектра (6), для снижения влияния линейных 
искажений в трактах передачи сигнала. 


Седьмую группу признаков составляют вариации огибающих энергетического 
спектра: 


АА ТИ. , 
И) =) => 6-0}. (11) 
= 
Признаки восьмой группы — нормированные значения вариаций, которые вы- 
числяются согласно (12): 


7) =). (12) 
Нормировка каждой 1-й компоненты вариации огибающей спектра необходима 
для снижения влияния частотных искажений на значения признаков. 
Девятую группу признаков составляют коэффициенты кросскорреляции А(1К), 
которые вычисляются по формуле (13): 


(1-05 6.)-20}- 6-0 


(13) 
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Десятую группу интегральных акустических признаков составляют признаки 
ОТ речи, а именно значения компонент гистограммы распределения частоты основ- 
ного тона (ЧОТ). Эти признаки предназначены для описания особенностей распре- 
деления значений ОТ речи говорящего в диапазоне от 50 до 400 Гц. 

По результатам анализа исследовались следующие компоненты гистограммы 
распределения ЧОТ: средняя частота; максимальная частота; минимальная частота; 
асимметрия плотности распределения; эксцесс плотности распределения; график 
распределения плотности. 

Для определения величины ЧОТ по речевому потоку применяется следующий 
алгоритм. Из анализируемого отрезка речи с помощью экспериментально установ- 
ленных порогов устраняются фрагменты, соответствующие низкоэнергетичным эле- 
ментам речи, и участки, имеющие высокую частоту пересечения нулевого уровня 
сигнала (в основном, согласные звуки). Полученный таким образом сигнал разби- 
вается на окна длиной около 20 мс. Величина ЧОТ определяется на каждом из окон с 
помощью кепстрального анализа. Метод оценивания ОТ на основе кепстрального 
анализа сводится к отысканию пика в области возможных значений ОТ, координата 
пика дает оценку периода ОТ. 

Первые шесть групп интегральных признаков отражают своеобразие формы 
спектра голосовых импульсов у различных лиц и особенности фильтрующих функ- 
ций их речевых трактов. 

Признаки вариаций огибающих энергетического спектра (11) и нормированных 
вариаций огибающих энергетического спектра (12) характеризуют особенности ре- 
чевого потока, связанные с динамикой перестройки артикуляционных органов речи 
говорящего. 

Коэффициенты кросскорреляции (13) являются интегральными характеристи- 
ками речевого потока, отражающими своеобразие взаимосвязи или синхронности 
движения артикуляционных органов речи говорящего. 

Группа интегральных признаков ОТ характеризует индивидуальность статис- 
тических распределений значений ЧОТ речи говорящего, которая, в свою очередь, 
является параметром колебаний голосовых связок и определяет, главным образом, 
групповую принадлежность голоса человека. 


Численное исследование 


Для проведения численного исследования, предназначенного для изучения влия- 
ния алгоритма С5М-сжатия на интегральные идентификационные характеристики 
речевого сигнала, были записаны речевые фрагменты, принадлежащие 10 дикторам 
(мужчинам и женщинам с разными голосовыми данными). Для каждого из дикторов 
сделаны 10 записей длительностью не менее 5 секунд. Диктор наговаривал набор из 
11 слов, которые не содержат невокализованных звуков. Образцы речи для обеспече- 
ния максимального приближения их характеристик к исходным аналоговым сигналам 
записывались в формате \/АУ РСМ с частотой дискретизации 22050, глубиной бит- 
ности 16 бит. Запись осуществлялась в монорежиме. Кроме того, для каждого из дикто- 
ров была сделана одиннадцатая запись в формате С$М 6.10 \МАУ с частотой дискре- 
тизации 8 кГц. Все записи были созданы с помощью программы Ачдасиу 1.3.12-Беа. 

Идентификационный анализ компрессированных речевых реализаций 10 дик- 
торов и образцов их речи, зафиксированных в формате \/АУ РСМ, проводился по 
вышеописанным 10 группам интегральных признаков с использованием трех типов 
гребенок фильтров: по барк- и темперированной музыкальной шкале, а также по гре- 
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бенке фильтров, предложенной разработчиками системы «Диалект». Для чего было 
создано специальное программное обеспечение, реализующее вычисление значений 
компонент гистограммы распределения ЧОТ и групп признаков (4), (6) — (13), с возмож- 
ностью настройки границ полос пропускания используемых фильтров и визуального 
анализа полученных признаков каждой группы в виде графиков их значений. 

Допустимые значения вариативности (внутридикторская вариативность) интег- 
ральных признаков рассчитывались на основе статистических оценок, полученных 
по образцам речи, в качестве оценки междикторской вариативности использовалась 
дисперсия средних значений исследуемых признаков. 

Результаты проведенного идентификационного анализа приведены в табл. 2. 


Таблица 2 — Результаты идентификационного анализа компрессированных 
речевых реализаций 


Вероятность принадлежности речевой 
реализации одному лицу 
Г Темпери- 
руппа признаков 
барк-шкала Е «Диалект» 
музыкальная 
шкала 
нормированные значения энергетического 0.93 0.96 09 
спектра › » › 
нормированные средние значения энерге- 0.93 0.96 09 
тического спектра . : - 
относительное время пребывания сигнала в 0.34 04 027 
полосах энергетического спектра ? ь ? 
нормированное время пребывания сигнала 031 0.35 0.25 
в полосах энергетического спектра ? ? ? 
медианные значения энергетического 0.95 0.97 091 
спектра речи в полосах г ? | 
относительная мощность спектра речи 
ее. 0,94 0,95 0,91 
величины вариации огибающих 091 0.92 0.87 
энергетического спектра речи : | ? 
нормированные величины вариации 0.96 097 0.95 
огибающих энергетического спектра речи ? : : 
значения коэффициентов кросскорреляции 
спектральных огибающих между полосами 0,91 0,95 0,89 
энергетического спектра 
значения компонент гистограммы 0.95 
распределения ЧОТ . 


На рис. 1 показаны гистограмма распределения ЧОТ, полученная для образца 
речи, записанного в формате \\АУ РСМ, на рис. 2 — для речевой реализации того же 
диктора, записанной в формате СЗМ 6.10. 

Анализ гистограмм распределения ЧОТ показал, что степень совпадения их ха- 
рактеристик для сигналов после компрессии и соответствующих образцов речи высо- 
кая (различия не более полутона), т.е. значения компонент гистограммы распределения 
ЧОТ, полученные по сжатому речевому сигналу, изменяются в пределах внутридик- 
торской вариативности. 
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Рисунок 1 — Гистограмма распределения ЧОТ (вверху), полученная по речевому 
материалу диктора ЖТ, записанного в формате \УАУ РСМ (внизу - график 
амплитудно-временного представления соответствующего речевого сигнала) 
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Рисунок 2 — Гистограмма распределения ЧОТ (вверху), полученная по речевому 
материалу диктора ЖТ, записанного в формате С$М 6.10 \АУ (внизу — график 
амплитудно-временного представления соответствующего речевого сигнала) 


Выводы 


Анализируя полученные результаты, можно сделать вывод о перспективности 
использования темперированной музыкальной шкалы для задания границ полос про- 
пускания фильтров, на основе которых вычисляются спектральные признаки, характе- 
ризующие речевой поток в целом. 

Высокая степень совпадения характеристик гистограмм распределения ЧОТ и 
спектральных признаков (4), (6), (9) - (10), (12) - (13), отражающих характеристики 
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спектральной плотности речевого сигнала, полученных для сигналов после компрес- 
сии, с характеристиками, полученными по соответствующим образцам речи, говорит об 
устойчивости этих групп признаков к @$М-сжатию. 

Разница значений вариаций огибающих энергетического спектра (11) в области 
высоких частот превышает порог внутридикторской вариативности, что делает эту 
группу признаков непригодной для идентификационного исследования компресси- 
рованных сигналов. Группы признаков (7) — (8) — относительное и нормированное вре- 
мя пребывания сигнала в полосах энергетического спектра — показали свою полную 
непригодность для идентификационных исследований. 

Система связи ОЗМ развилась в глобальный стандарт второго поколения, зани- 
мающий лидирующие позиции в мире, на основании чего можно полагать, что цифро- 
вые фонограммы этого формата все чаще будут попадать в сферу уголовного и граж- 
данского судопроизводства в качестве доказательной базы. Однако специфика такого 
формата вводит новые проблемы в проведение фоноскопических экспертиз, поскольку 
сигнал подвергается интенсивному кодированию с удалением существенной порции 
криминалистически значимой информации о речи абонента. Таким образом, возникает 
необходимость проверки робастности существующих методик идентификации лич- 
ности по голосу и разработки новых экспертных методик исследования цифровых фо- 
нограмм, что определяет практическую значимость данной работы. 
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Т.В. Ермоленко, М.О. Панфтова 

Вплив С5М-стиснення на дентифжкащин! акустичн! ознаки, що характеризують мовний попк у шлому 
Стаття присвячена дослдженню впливу алгоритму стиснення @$М 6.10, що використовуеться сучасним 
спльниковим зв’язком, на характеристики мовного сигналу. У робот! описано 1нтегральн! ознаки мовного 
сигналу, шо використовуються в сучасних системах 1дентифткаци диктора, виконано чисельне дослдження 
стшкост! значень цих ознак до стиснення 13 втратами. 


Т.Г. Уегтоепко, М.А. Рапоуа 

шйиепсе о СЗМ-сотргез$10п оп Тдепййсавоп Асоизйс Ееабиге5 фа Спагасене а Зреесй Е оу’ аз а УУпое 
ТБе агисе 15 4еусе4 ю гезеагсВ оЁР шЙчепсе оР ОМ 6.10 сотргез$1оп а|еогит, ысЬ 1$ етроуе4 мт 
тодеги се \аг пебмогК$, оп зреесН $1епа1 Ееавигез. ТВе 1есбтаие Юг пиеота| зреесВ $1епа1 еавлге$ сотпрщаноп 
УВ 15 ойеп изе4 ш тодегп зреаКег 14епиЙсаНоп зузетл$ 15 4езсте4. А1зо сотршайопа| туезиганоп 
тези$ оРФезе Ееаге$ гобизтез$ 10 сотргез1юп \УИВ 105565 аге зВо\уп. 
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